Telegram Group & Telegram Channel
🗑 Нужно ли автоматически удалять один из признаков, если они сильно коррелируют

Не всегда — всё зависит от цели вашей модели.

🎯 Если важна точность предсказаний:
Современные алгоритмы машинного обучения (например, Random Forest, градиентный бустинг, нейросети) достаточно устойчивы к мультиколлинеарности.
Если оба признака способствуют улучшению метрик — удалять не обязательно.

🧠 Если важна интерпретируемость (например, в линейной регрессии):
Сильно коррелирующие признаки могут делать модель нестабильной и затруднять интерпретацию коэффициентов.
В этом случае удаление одного признака может упростить модель и сделать её более надёжной.

🔎 Как подойти на практике:
1. Проверьте через кросс-валидацию, ухудшается ли качество модели при удалении одного признака.
2. Используйте предметные знания, чтобы определить, не измеряют ли оба признака одно и то же.
3. Вместо удаления можно применить регуляризацию (например, L1 или L2), чтобы модель автоматически уменьшала влияние избыточных признаков.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/1008
Create:
Last Update:

🗑 Нужно ли автоматически удалять один из признаков, если они сильно коррелируют

Не всегда — всё зависит от цели вашей модели.

🎯 Если важна точность предсказаний:
Современные алгоритмы машинного обучения (например, Random Forest, градиентный бустинг, нейросети) достаточно устойчивы к мультиколлинеарности.
Если оба признака способствуют улучшению метрик — удалять не обязательно.

🧠 Если важна интерпретируемость (например, в линейной регрессии):
Сильно коррелирующие признаки могут делать модель нестабильной и затруднять интерпретацию коэффициентов.
В этом случае удаление одного признака может упростить модель и сделать её более надёжной.

🔎 Как подойти на практике:
1. Проверьте через кросс-валидацию, ухудшается ли качество модели при удалении одного признака.
2. Используйте предметные знания, чтобы определить, не измеряют ли оба признака одно и то же.
3. Вместо удаления можно применить регуляризацию (например, L1 или L2), чтобы модель автоматически уменьшала влияние избыточных признаков.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/1008

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Библиотека собеса по Data Science | вопросы с собеседований from it


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA